Deep learning-based 3D human pose estimation performs best when trained on large amounts of labeled data, making combined learning from many datasets an important research direction. One obstacle to this endeavor are the different skeleton formats provided by different datasets, i.e., they do not label the same set of anatomical landmarks. There is little prior research on how to best supervise one model with such discrepant labels. We show that simply using separate output heads for different skeletons results in inconsistent depth estimates and insufficient information sharing across skeletons. As a remedy, we propose a novel affine-combining autoencoder (ACAE) method to perform dimensionality reduction on the number of landmarks. The discovered latent 3D points capture the redundancy among skeletons, enabling enhanced information sharing when used for consistency regularization. Our approach scales to an extreme multi-dataset regime, where we use 28 3D human pose datasets to supervise one model, which outperforms prior work on a range of benchmarks, including the challenging 3D Poses in the Wild (3DPW) dataset. Our code and models are available for research purposes.
translated by 谷歌翻译
Segmenting humans in 3D indoor scenes has become increasingly important with the rise of human-centered robotics and AR/VR applications. In this direction, we explore the tasks of 3D human semantic-, instance- and multi-human body-part segmentation. Few works have attempted to directly segment humans in point clouds (or depth maps), which is largely due to the lack of training data on humans interacting with 3D scenes. We address this challenge and propose a framework for synthesizing virtual humans in realistic 3D scenes. Synthetic point cloud data is attractive since the domain gap between real and synthetic depth is small compared to images. Our analysis of different training schemes using a combination of synthetic and realistic data shows that synthetic data for pre-training improves performance in a wide variety of segmentation tasks and models. We further propose the first end-to-end model for 3D multi-human body-part segmentation, called Human3D, that performs all the above segmentation tasks in a unified manner. Remarkably, Human3D even outperforms previous task-specific state-of-the-art methods. Finally, we manually annotate humans in test scenes from EgoBody to compare the proposed training schemes and segmentation models.
translated by 谷歌翻译
多个现有基准测试涉及视频中的跟踪和分割对象,例如,视频对象细分(VOS)和多对象跟踪和分割(MOTS)(MOTS),但是由于使用不同的基准标准数据集和指标,它们之间几乎没有相互作用(例如J&F,J&F,J&F,J&F,地图,smotsa)。结果,已发表的作品通常针对特定的基准,并且不容易相互媲美。我们认为,可以解决多个任务的广义方法的发展需要在这些研究子社区中更大的凝聚力。在本文中,我们旨在通过提出爆发来促进这一点,该数据集包含数千个带有高质量对象掩码的视频,以及一个相关的基准标准,其中包含六个任务,涉及视频中的对象跟踪和细分。使用相同的数据和可比较的指标对所有任务进行评估,这使研究人员能够一致考虑它们,因此更有效地从不同任务的不同方法中汇集了知识。此外,我们为所有任务展示了几个基线,并证明可以将一个任务的方法应用于另一个任务,并具有可量化且可解释的性能差异。数据集注释和评估代码可在以下网址获得:https://github.com/ali2500/burst-benchmark。
translated by 谷歌翻译
我们提出了一种新的注意机制,称为全球分层注意(GHA),用于3D点云分析。 GHA通过在多个层次结构上进行一系列粗化和插值操作,近似于常规的全局点产生关注。 GHA的优势是两个方面。首先,它相对于点数具有线性复杂性,从而使大点云的处理能够处理。其次,GHA固有地具有归纳性偏见,可以专注于空间接近点,同时保留所有点之间的全球连通性。与前馈网络相结合,可以将GHA插入许多现有的网络体系结构中。我们尝试多个基线网络,并表明添加GHA始终如一地提高不同任务和数据集的性能。对于语义分割的任务,GHA在扫描板上的Minkowskiengine基线增加了1.7%的MIOU。对于3D对象检测任务,GHA将CenterPoint基线提高了Nuscenes数据集上的 +0.5%地图,而3DETR基线将SCANNET上的基线提高到 +2.1%MAP25和 +1.5%MAP50。
translated by 谷歌翻译
对于机器人来说,在人口稠密地区的自主航行仍然是一项艰巨的任务,因为难以确保在非结构化情况下与行人进行安全互动。在这项工作中,我们提出了一个人群导航控制框架,该框架可在自动驾驶汽车上提供连续避免障碍物和接触后控制。我们建议评估指标,以了解自然人群中的会计效率,控制器响应和人群相互作用。我们报告了不同人群类型的110多种试验的结果:稀疏,流量和混合流量,低 - (<0.15 ppsm),中部(<0.65 ppsm)和高 - (<1 ppsm)的行人密度。我们提出了两种低级避免障碍方法与共享控制基线之间的比较结果。结果表明,在最高密度测试上,相对时间下降了10%,没有其他效率度量降低。此外,自主导航显示与共享控制导航相当,相对混蛋较低,命令的流利度明显更高,表明与人群的兼容性很高。我们得出的结论是,反应性控制器履行了对人群导航的快速和连续适应的必要任务,并且应该与高级计划者一起以进行环境和情境意识。
translated by 谷歌翻译
由于其在建模复杂操作方面的性能和灵活性,变压器在计算机视觉中变得普遍。特别重要的是“交叉注意”操作,它允许通过参与任意大小的输入功能集来学习一个向量表示(例如,图像中的对象)。最近,提出了“掩盖注意力”,其中给定的对象表示仅关注那些对象的分割掩码处于活动状态的图像像素功能。这种注意力的专业证明对各种图像和视频细分任务有益。在本文中,我们提出了另一种专业化的注意力,该专业能够通过“软遮罩”(具有连续遮罩概率而不是二进制值的那些软遮罩)参加,并且通过这些掩码概率也可以差异化,从而允许学习掩模用于注意的掩模。在网络中无需直接损失监督。这对于多种应用程序可能很有用。具体而言,我们对弱监督视频对象细分(VOS)的任务采用了“可区分的软掩盖注意力”,在该任务中,我们为VOS开发了一个基于变压器的网络,该网络仅需要单个带注释的图像框架,但也可以仅带有一个带注释的框架的视频中的循环一致性培训受益。尽管没有标记的框架中的口罩没有损失,但由于我们的新型注意力表述,该网络仍然能够在这些框架中细分对象。代码:https://github.com/ali2500/hodor/blob/main/main/hodor/modelling/encoder/soft_masked_attention.py
translated by 谷歌翻译
用于视频对象分割(VOS)的现有最先进方法(VOS)学习帧之间的低级像素到像素对应关系,以在视频中传播对象掩码。这需要大量的密集注释的视频数据,这是昂贵的注释,并且由于视频内的帧是高度相关的,因此由于视频内的帧具有很大冗余。鉴于此,我们提出了HODOR:一种新的方法,通过有效地利用被帮助的静态图像来理解对象外观和场景上下文来解决VOS的新方法。我们将来自图像帧的对象实例和场景信息编码为强大的高级描述符,然后可以用于重新划分不同帧中的这些对象。因此,与没有视频注释培训的现有方法相比,HODOR在DAVIS和YOUTUBE-VOS基准上实现了最先进的性能。如果没有任何架构修改,HODOR也可以通过利用循环一致性围绕单个注释的视频帧周围的视频上下文学习,而其他方法依赖于密集,则时间上一致的注释。
translated by 谷歌翻译
尽管从研究界获得了重大关注,但单眼视频中分段和跟踪对象的任务仍然有很多改进空间。现有工程同时证明了各种图像级分段任务的扩张和可变形卷曲的功效。这使得这种卷积的3D扩展也应该产生视频级分段任务的3D扩展。但是,这方面尚未在现有文献中彻底探讨。在本文中,我们提出了动态扩张卷积(D ^ 2Conv3d):一种新型类型的卷积,其汲取了来自扩张和可变形卷曲的灵感,并将它们延伸到3D(时空)域。我们通过实验表明,D ^ 2CONV3D可用于通过简单地使用D ^ 2CONV3D作为标准卷积的替代品来改进多个视频分段相关基准的多个3D CNN架构的性能。我们进一步表明,D ^ 2CONV3D OUT-upial延伸的现有扩张和可变形卷曲的速度扩展到3D。最后,我们在Davis 2016无监督的视频对象分段基准测试中设置了新的最先进的。代码在https://github.com/schmiddo/d2conv3d上公开提供。
translated by 谷歌翻译
我们呈现Mix3D,一种用于分割大规模3D场景的数据增强技术。由于场景上下文有助于推理对象语义,因此当前的工作侧重于具有大容量和接收字段的模型,可以完全捕获输入3D场景的全局上下文。然而,强烈的背景前瞻可能会有不利的影响,就像错过了一个穿过街道的行人。在这项工作中,我们专注于平衡全球场景和局部几何形状的重要性,以概括在培训集中的上下文前方之外的目标。特别是,我们提出了一种“混合”技术,通过组合两个增强的场景来创造新的训练样本。通过这样做,对象实例被隐式地放入新颖的外观环境中,因此模型更难地依赖场景上下文,而是从本地结构推断出语义。我们进行详细的分析以了解全球背景,局部结构,局部结构和混合场景效果的重要性。在实验中,我们展示了Mix3D培训的模型从室内(Scannet,S3DIS)和室外数据集(Semantickitti)上的显着性能提升。 Mix3D可以逐渐与任何现有方法一起使用,例如,用Mix3D培训,MinkowsWinet在SCANNet测试基准78.1 Miou的显着边际占据了所有现有最先进的方法。代码可用:https://nekrasov.dev/mix3d/
translated by 谷歌翻译
人发现是在人居住环境中导航的移动机器人的至关重要任务。激光雷达传感器在此任务中很有希望,这要归功于其准确的深度测量和较大的视野。存在两种类型的LIDAR传感器:扫描单个平面的2D LIDAR传感器和3D激光雷达传感器,它们扫描多个平面,从而形成体积。他们如何比较人检测任务?为了回答这一点,我们使用公共大规模的Jackrabbot数据集以及最先进的2D和3D激光雷达的人检测器(分别是DR-SPAAM和CenterPoint)进行了一系列实验。我们的实验包括多个方面,从基本性能和速度比较到对距离和场景混乱的本地化精度和鲁棒性的更详细分析。这些实验的见解突出了2D和3D激光雷达传感器的优势和劣势作为人检测的来源,并且对于设计将与周围人类密切运行的移动机器人特别有价值(例如,服务或社交机器人)。
translated by 谷歌翻译